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摘要 : 


【 目的 ] 通过 网 络 用 户 评论 , 为 评论 网 站 构建 有 效 的 评分 预测 机 制 。[ 方法 】 提 出 基于 网 络 用 户 评论 的 评 


分 预测 模型 ,该 模型 包括 4 个 模块 : 网 络 用 户 评论 获取 模块 、 预 测 变量 获取 模块 、 预 测 分 析 模 块 以 及 预测 结果 评 
价 模块 。 抓 取 30 部 不 同类 型 的 电影 评论 数据 , 27 部 用 于 构建 模型 , 3 部 用 于 检验 模型 。[ 结果 】 使 用 逐步 回归 方 


法 得 


选 出 变量 : 参与 评分 人 数 、 参 与 评论 人 数 、 想 要 观看 人 数 和 电影 正 向 评论 情感 均值 , 构建 评分 预测 模型 。 使 
用 3 部 电影 验证 ,预测 评分 与 IMDb 评分 相差 最 大 值 为 0.0644, 最 小 值 为 0.0227。[ 局 限 】 在 数据 样本 量 、 


情感 


村 征 提取 精度 、 模 型 普 适 性 验证 等 方面 有 待 进一步 提升 。[ 结论 ] 该 模型 能 够 依据 用 户 评论 对 评分 进行 有 效 预 测 ， 


在 网 络 水 军 探测 方面 也 能 发 挥 一 定 的 作用 。 


关键 词 : 评分 预测 ”情感 分 析 ”回归 分 析 ”电影 评分 ”网络 水 军 探测 
分 类 号 : G350 
分 预测 模型 。 由 于 网 络 评论 中 包含 用 户 对 产品 的 意见 


1 3 引 


随 着 Web2.0 的 发 展 , 每 一 位 网 络 用 户 都 可 以 通过 
互联 网 发 表 个 人 对 产品 的 观点 并 为 产品 打分 ,专门 的 
产品 评分 网 站 也 应 运 而 生 。 同 时 , 越 来 越 多 的 消费 者 
将 评分 网 站 上 的 用 户 评分 作为 消费 决策 的 重要 参考 。 
但 由 于 信息 发 布 的 门槛 降低 , 评分 网 站 上 的 评分 易 受 
到 非 正 常 手 段 干扰 ， 面 对 评 分 网 站 上 纷繁 的 产品 宣传 
和 产品 评价 ， 如 何 从 网 络 中 识别 真实 的 产品 评价 及 评 
分 成 为 网 民 们 关注 的 问题 。 如 今 评分 网 站 在 引导 消费 
上 起 到 极其 关键 的 作用 , 但 是 其 存在 两 个 问题 使 得 产 
品 的 真实 性 大 打折 扣 : 一 是 消费 者 评论 具有 混杂 性 ， 
二 是 用 户 恶 意 刷 分 行为 影响 了 产品 的 真实 评分 。 普 通 


了 中 


和 情感 倾向 ， 因 此 ,基于 用 户 的 评论 内 容 , 利用 情感 
分 析 技 术 分 析 评 论文 本 的 情感 倾向 性 ,将 情感 指标 作 
为 辅助 预测 指标 ， 以 提高 模型 的 预测 效果 。 对 于 个 人 ， 
可 以 通过 评分 预测 模型 得 到 更 客观 公正 的 评分 , 为 消 
费 决策 提供 建议 ; 对 于 商家 , 可 以 收 到 最 真实 的 使 用 
反馈 6， 以 改进 产品 质量 ; 对 于 网 站 管理 方 ,可 以 用 来 
探测 评分 异常 值 存在 ， 及 时 发 现 *“ 网 络 水 军 皂 1， 维护 
网 站 正常 运营 。 


2 相关 研究 


目前 对 网 络 用 户 评论 的 相关 研究 已 经 取得 了 较 多 
的 成 果 ,， 主要 研究 方向 集中 在 评论 的 有 用 性 、 评 论 对 


用 户 只 能 通过 网 络 评分 辨别 产品 的 优 劣 ， 而 一 个 不 具 
有 公信 力 的 评分 很 大 程度 上 会 误导 用 户 判 断 。 另 外 ， 
网 络 评分 在 产品 发 布 之 后 一 段 时 间 才 趋 于 稳定 , 存在 
滞后 性 的 特点 。 
针对 上 述评 分 网 站 的 问题 , 本 文通 过 选取 网 络 用 
户 评论 的 相关 指标 ,提出 一 种 基于 网 络 用 户 评论 的 评 


产品 销量 的 影响 和 评论 文本 挖掘 三 个 方面 。 

(1) 评论 的 有 用 性 是 指 用 户 产生 的 能 够 帮助 潜在 
消费 者 购买 决策 的 产品 评价 站。 只 有 消费 者 认为 有 用 
的 评价 才 具 有 实际 价值 , 研究 者 主要 从 评论 内 容 和 评 
论 用 户 的 角度 对 评论 的 有 用 性 进行 探索 。Chen 等 中 抓 
取 亚 马 逊 网 站 用 户 评论 数据 , 提出 网 络 用 户 评论 的 有 
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之 一 。 


用 性 与 评论 用 户 、 评 论 效 用 和 评论 获 支持 数 存在 较 强 
的 关联 性 。 吴 江 等 外 从 评论 信息 的 相关 性 、 及 时 性 、 
客观 性 、 真 实 性 4 个 维度 出 发 , 构建 评论 有 用 性 影响 
因素 模型 。Kuan 等 中 利用 亚马逊 评论 数据 探索 出 评论 
语句 的 长 度 、 可 读 性 程度 、 情 感 极 性 、 评 论 用 户 的 信 
誉 对 评论 的 有 用 性 具有 影响 。 

(2) 评论 对 产品 销量 的 影响 涉及 的 产品 领域 众多 ， 
主要 包括 电子 产品 类 、 音 像 图 书 类 、 旅 游 酒店 类 、 电 
影 类 等 , 王 文 君 等 由 通过 对 在 线 手机 评论 研究 发 现 , 评 
论 长 度 、 评 论 时 效 性 、 评 论 数 量 、 负 面 评 论 和 产品 价 
格 对 在 线 手机 销量 有 显著 性 影响 。 友 诗 阳 等 中 分 析 了 
当当 网 上 的 图 书评 论 , 研究 显示 评论 数量 对 图 书 销量 
有 正 向 影响 。 评 论 数量 对 销量 的 影响 程度 随 着 图 书 上 
线 的 时 间 变 长 而 减弱 。Torres 等 四 研究 美国 178 家 酒店 
在 TripAdvisor 上 的 评分 排名 与 在 线 评论 数量 对 酒店 
在 线 交 易 产生 的 影响 , 分 析 发 现 评论 数量 和 评分 排名 
对 酒店 在 线 预订 交易 具有 积极 影响 。Chintagunta 等 中 
测量 了 评论 效用 、 评 论 数 量 对 电影 票房 的 影响 。 


测 打 分 模型 。 但 该 模型 变量 只 涉及 综合 情绪 值 和 评论 
总 数 , 没有 考虑 评论 的 其 他 因素 。 

综 上 所 述 , 目前 虽然 有 很 多 关于 网 络 用 户 评论 的 
研究 , 但 研究 主要 集中 于 评论 效用 和 挖掘 技术 方面 。 
在 评分 预测 方面 , 结合 情感 分 析 , 并 用 于 评论 分 数 预 
测 方 面 的 相关 研究 较 少 。 本 文 在 网 络 用 户 评论 相关 变 
量 基础 上 , 引入 情感 特征 因素 作为 辅助 预测 变量 , 提 
出 基于 网 络 用 户 评 论 的 评分 预测 模型 ， 旨 在 利用 情感 
分 析 和 回归 分 析 手 段 实 现 对 产品 评分 网 站 客观 评分 的 
有 效 预测 。 


3 ”基于 网 络 用 户 评论 的 评分 预测 模型 设计 


本 文 提出 一 种 基于 网 络 用 户 评论 的 评分 预测 模 
型 ， 预 测评 分 网 站 中 产品 的 客观 评分 。 借 助 情感 分 析 
的 手段 , 提取 用 户 语 料 中 的 情感 特征 , 使 之 成 为 辅助 
预测 指标 , 并 寻找 行业 内 最 客观 公正 的 评分 作为 预测 
对 比 变 量 。 同 时 结合 相关 联 的 预测 指标 以 及 情感 分 析 
指标 作为 自 变 量 , 通过 回归 分 析 构 建 评 分 预测 模型 。 


(3) 评论 文本 挖掘 主要 包括 产品 特征 挖掘 和 用 户 
情感 的 判断 。 对 评论 中 产品 特征 的 挖掘 是 从 产品 自身 
的 角度 进行 分 析 ，Liu 等 上 9 首先 提出 应 用 关联 规则 分 
类 方法 提取 英文 评论 中 的 产品 特征 。 杜 思 奇 等 5 引信 
汉语 组 块 分 析 , 结合 支持 向 量 机 、Apriori 算法 获取 频 
繁 项 集 、TF-IDF 停 用 词 过 滤 实 现 评论 文本 中 产品 特征 
的 提取 。 用 户 情感 的 判断 主要 通过 挖掘 用 户 网 络 评价 
的 情感 倾向 分 析 用 户 对 评价 对 象 的 讲 贬 态度 。 单 晓 红 
等 [5 采用 情感 分 析 方 法 对 苹果 手机 用 户 的 网 络 评论 进 
行 分 析 , 为 用 户 购买 决策 提供 依据 。 吴 维 芳 等 睛 利用 
Word2Vec 对 TripAdvisor 酒店 评论 进行 特征 抽取 和 降 
维 , 结合 情感 分 析 技 术 , 构建 计量 经 济 模型 分 析 酒 店 
特征 评价 与 用 户 满意 度 的 关系 。 

男 外 ,在 评分 预测 方面 ， 马 春平 等 (提出 一 种 基 
于 词 向 量 的 方法 挖掘 用 户 评论 信息 ,并 结合 协同 过 滤 
的 方法 设计 新 的 推荐 算法 , 该 算法 有 效 地 提高 了 推荐 
系统 的 评分 预测 性 能 。 Kamath 等 055 利用 MG- LDAM9 
算法 对 评论 进行 主题 分 析 生 成 主题 词 表 , 利用 主题 词 
表 将 用 户 评 论 表 示 成 特征 向 量 , 利用 机 器 学 习 算 法 建 
模 进 行 评分 预测 。 马 松 岳 等 ("对 豆 激 电影 的 用 户 评价 
进行 情感 分 析 得 到 综合 情绪 值 ， 发 现 评 论 评价 的 综合 
情绪 值 与 打分 评价 相关 性 较 高 ,根据 评论 评价 构建 预 


该 模型 主要 由 4 个 部 分 构成 : 网 络 用 户 评论 获取 模块 、 
预测 变量 获取 模块 、 预 测 分 析 模 块 以 及 预测 结果 评价 
模块 ， 如 图 1 所 示 。 

(1) 网 络 用 户 评论 获取 模块 主要 包括 网 络 评论 来 
源 的 筛选 以 及 网 络 评论 数据 的 获取 。 质 量 高 的 数据 源 
有 助 于 模型 的 有 效 建立 , 选 定 具有 代表 性 的 网 站 作为 
网 络 评论 数据 源 "M 选取 行业 客观 评分 数据 来 源 ; 采 
集 所 需 数据 并 存储 在 数据 库 中 。 

(2) 预测 变量 获取 模块 主要 包括 网 络 用 户 评论 相 
关 预 测 指标 和 情感 特征 指标 。 获 取 网 络 用 户 评论 相关 
预测 指标 , 对 数量 级 大 的 变量 进行 对 数 缩放 操作 ， 防 
止 数据 的 量 级 差距 导致 模型 失真 。 和 情感 特 征 指标 提取 
包括 数据 清洗 、 中 文 分 词 、 去 停 用 词 以 及 情感 量化 "1。 
对 网 络 用 语 化 且 非 结构 化 的 网 络 用 户 评论 进行 数据 清 
洗 , 剔除 评论 中 的 网 络 链接 .表情 等 非 规范 信息 ， 只 保 
留 文本 内 容 ; 进行 文本 分 词 和 去 停 用 词 处 理 , 减少 情 
感 量化 的 计算 量 ; 通过 情感 值 计算 的 方式 对 语 料 数据 
进行 量化 。 

(3) 预测 分 析 模 块 主要 针对 预测 变量 , 采用 多 元 
线性 回归 分 析 方法 构建 预测 模型 请， 并 对 模型 进行 结 
果 分 析 。 若 P 值 不 显著 , 则 采用 不 同 的 回归 分 析 方 法 
第 选 变量 , 重 构 模型 观察 各 个 变量 P 值 是 否 显著 (小 
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于 0.05), 倘若 不 显著 说 明 模 型 建立 失败 。 若 P 值 显著 ， 
再 对 R 方 (R-square) 和 调整 R 方 (Adjusted R-square) 进 
行 比 较 , 选取 值 较 高 的 回归 模型 ,该 数值 越 大 ,预测 
值 与 实际 值 越 接 近 。 

(4) 预测 结果 评价 模块 主要 包括 对 回归 模型 的 预 


语 料 数据 库 


| 
预测 变量 情感 特征 


| 区 指标 
| 获取 模块 | 让 而 
数据 清洗 要 
| |! a 
刀 换 
中 文 分 
| 预测 变量 
组 建 
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测 结果 进行 可 视 化 解析 , 通过 拟 合 预 测 分 数 与 客观 评 
分 , 观察 预测 效果 。 MT 

的 变量 , 分 析 其 差异 性 的 缘由 ,进行 剔除 后 , 重新 构 
建 回归 方程 , 并 采用 预测 数据 检验 模型 的 实际 预测 效 
果 ，, 以 证 明 预 测 模型 的 有 效 性 。 


网 络 息 忠 Pe 
采集 数据 | ”网 络 用 户 评论 
~ 获取 模块 


| 


最 终 预测 
模型 


结束 


| 
| 
| 
| 
| 
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| 
| 
| 
| 
| 
| 
| 
| 
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| 
| 
| 
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| 
| 
| 
| 
预测 结果 评价 | 

模块 | 


图 1 评分 预测 模型 流程 


4 模型 验证 与 评估 


为 验证 评分 预测 模型 的 有 效 性 ， 以 电影 评分 网 站 
为 例 , 通过 网 络 用 户 评论 预测 模型 来 预测 电影 评分 。 
4.1 实验 数据 来 源 选 取 与 采集 

(1) 豆瓣 电影 影评 数据 源 

豆 辩 电影 是 国内 热门 的 电影 评分 网 站 , 收录 了 十 
分 齐全 的 国内 外 电影 数据 , 用 户 数量 及 电影 评论 数据 
量 巨大 , 是 一 个 理想 的 网 络 评 论 源 。 豆 办 的 影评 主要 
以 两 种 形式 存在 : 短评 和 长 评 。 短 评 字数 限制 在 140 
字 以 内 ， 主 要 是 豆瓣 用 户 对 于 电影 较为 宏观 或 者 某 个 
方面 的 评价 。 长 评 多 为 篇 幅 型 影评 内 容 ， 内 容 繁 杂 , 很 
多 电影 之 外 的 内 容 , 例如 有 些 会 介绍 拍摄 过 程 、 拍 摄 
手法 或 者 演 职 人 员 等 。 因 此 , 本 文选 取 豆 办 电影 评分 
网 站 的 短评 作为 网 络 用 户 评论 语 料 。 

以 近年 来 的 电影 为 样本 , 为 保障 数据 的 多 样 化 ， 
选取 时 尽量 兼顾 电影 上 映 月 份 和 不 同类 型 的 电影 题 
材 ， 如 动作 类 、 喜 剧 类 、 科 幻 类 等 。 共 计 选 择 30 部 电 
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影 ， 部 分 电影 如 表 1 所 示 。 
表 1 电影 样本 (部 分 ) 


编号 “电影 名 称 。 中 日 类 型 制作 地 区 
1 小 时 代 4 ”2015/7/9 爱情、 剧情 、 青 春 "i 
2 小 时 代 2 2013/8/8。 青春、 剧情 、 爱 情 “中 国内 油 ， 
3 ”恶棍 天 使 。 2015/12/24 喜剧 、 荒 诞 、 爱 情 ”中 国 
4 万 物 生长 ”2015/4/17 爱情、 剧情、 校园 “中国 
5 ” 捉 妖 记 2015/7/16 ” 剧情、 喜剧 、 奇 幻 ”中国 
6 ”湄公河 行动 2016/9/30 动作 、 和 警 匪 中 国 
7 驴 得 水 2016/10/28 喜剧 、 剧 情 中 国 
8 ”功夫 熊猫 3 2016/1/29 动画， 喜剧、 动作 ”美国 中国 
9 ” 百 鸟 朝 风 ”2016/5/6 剧情、 文化 中 国 
10 七 月 与 安生 2016/9/14 剧情 、 爱 情 、 青 春 ”中国 


(2) 客观 评分 数据 源 
互联 网 电影 数据 库 (IMDb) 是 目前 信息 量 较 大 、 使 
用 人 数 较 多 、 影 响 范围 较 广 、 影 响 力 较 大 的 电影 网 站 


之 一 上 .IMDb 的 影片 得 分 采取 统计 学 的 计算 方法 , 并 
结合 部 分 专家 的 评分 意见 ， 保 障 电影 的 评分 不 受 极端 
行为 的 影响 。 为 保障 电影 评分 的 客观 性 , 本文 选取 
IMDb 的 评分 系统 作为 评分 预测 模型 的 客观 评分 来 源 。 

(3) 电影 影评 时 间 区 间 选 取 

由 于 电影 的 影评 数据 时 间 轴 较 长 , 通过 观察 电影 
影评 趋 于 稳定 状态 的 时 长 , 确定 选取 数据 的 时 间 区 间 。 
一 般 来 说 , 多 数 电 影 的 上 映 期 限 为 一 个 月 。 选取 不 同类 
型 的 电影 《 百 鸟 朝 凤 》《 七 月 与 安生 》《 功 夫 熊 猫 3》， 
对 其 上 映 后 获取 的 数据 量 进 行 分 析 , 如 图 2 所 示 。 
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BE 影 上 映 时间 (天 ) 
一 百 鸟 朝 凤 ”一 -七 月 与 安生 功夫 熊猫 3 
图 2 《 百 鸟 朝 凤 和 从 《七 月 与 安生 入 《功夫 熊猫 3》 
豆 办 影评 增长 趋势 
从 图 2 可 知 , 三 部 电影 的 评论 数据 在 上 映 后 一 周 
达到 顶峰 , 在 30 天 后 评论 数据 波动 不 再 明显 ， 并 趋 于 
稳定 。 此 外 , 在 分 析 三 部 电影 的 豆 辩 电影 短评 情感 倾 
向 性 方面 出 现 类 似 现象 ,如 《七 月 与 安生 》, 正 向 评论 
情感 值 和 负 向 评论 情感 值 在 第 一 周 内 波动 较为 明显 ， 
随 着 上 映 时 间 的 推移 , 情感 值 均 在 30 天 左右 逐渐 趋 于 
稳定 。 电影 上 映 第 30 天 , 情感 值 均值 稳定 在 1.7 左右 ， 
浮动 很 小 , 如 图 3 所 示 。 


| WW 


1 3 5 7 14 21 28 30 37 44 51 
电影 上 映 时 间 (天 ) 
负 向 情感 均值 的 绝对 值 一 正 向 情感 均值 ”一 情感 均值 


图 3 《七 月 与 安生 》 情 感 变 化 趋势 
综 上 所 述 , 若 评论 数据 的 波动 性 太 大 ,会 导致 情 
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型 构建 时 , 要 选取 能 够 反映 稳定 情感 的 数据 源 。 本 实 
验 中 选取 电影 上 映 之 后 30 天 内 的 豆瓣 电影 评论 数据 
作为 语 料 数据 来 源 。 

使 用 爬虫 软件 “ 集 搜 客 ”3 抓 取 豆 办 电影 影评 (包括 
短评 用 户 名 、 短 评 内 容 、 评 论 时 间 、 获 得 支持 数 及 评分 
数 ) 作 为 实验 数据 集 , 选用 IMDb 为 客观 评分 来 源 。 共 抓 
取 30 部 电影 1 469 660 条 电影 短评 ， 数 据 去 重 后 选取 电 
影 上 映 后 30 天 内 的 短评 数据 , 共计 513 788 条 。 
4.2 ”预测 变量 获取 

(1) 网 络 用 户 评论 相关 预测 指标 

网 络 评论 预测 变量 通过 豆 泊 电影 页 面相 关 数 据 选 
取 : 评分 人 数 (criticNum) 指 参与 该 电影 评分 的 用 户 数 ; 
参与 评论 人 数 (commentNum) 指 参与 该 电影 的 文字 评 
论 的 用 户 数 ; 标记 看 过 人 数 (watchedNum) 指 已 经 看 过 
该 部 电影 的 用 户 数 ; 想 看 的 人 数 (desireNum) 指 在 豆 辩 
上 标记 了 对 这 部 电影 感 兴趣 或 者 想 要 观看 的 用 户 数 。 
其 中 ,开始 选择 想 看 的 用 户 , 看 过 电影 后 改 为 看 过 ， 
将 不 再 在 想 看 那 组 ， 即 两 组 互 斥 。 根 据 所 获得 数据 延 
展 出 两 个 变量 : 参与 电影 评论 的 比例 (comment Ratio) 
和 想 看 人 数 比 例 (desireRatio), 计算 方法 如 公式 (1) 和 
公式 (2) 所 示 。 


commentRatio = Nh (1) 
watchedNum 
desireRatio = 一 一 一 一 一 一 一 一 一 一 一 ~ hl (2) 
(desireNum + watchedNum) 

commentRatio 是 评论 人 数 在 看 过 人 数 中 的 占 比 ， 
表示 想 表达 对 电影 观点 的 影迷 占 比 情况 。 很 多 影迷 在 
未 观看 电影 前 先 对 电影 进行 标记 ,表明 对 电影 有 极 大 
的 兴趣 ，desireRatio 表示 想 看 人 数 占 想 看 人 数 和 已 看 
过 人 数 之 和 的 比例 , 可 反映 对 电影 的 喜爱 程度 。 由 于 
获取 的 数据 量 级 比较 大 , 为 避免 模型 失真 ， 本 文采 用 
底数 为 10 的 对 数 缩放 方法 对 数据 进行 变换 ,例如 
criticNum 变换 后 的 变量 名 为 LeriticNum。 

(2) 情感 特征 指标 

本 文 情感 量化 采用 基于 情感 词典 的 方式 , 使 用 大 
连理 工大 学 的 情感 词汇 本 体 库 仆 。 本 体 库 中 词汇 的 情 
感 强度 1、3、5、7、9 级 别 分 别 对 应 1、2、3、4、5 
分 , 正 向 情感 为 正 数 , 负 向 情感 为 负数 ， 中 性 词 为 零 。 
例如 , “阻力 ”在 本 体 库 中 被 标注 为 负 向 情感 词 并 且 情 


感 量化 结果 出 现 偏差 ,实际 预测 结果 失真 。 因此 , 在 模 


感 强度 为 3， 其 对 应 的 情感 分 数 为 -2 分 。sentimentScore 
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代表 某 条 评论 的 情感 分 数 , i 代表 评论 中 正 向 词 的 序列 
数 , P; 代 表 该 词 对 应 的 正 向 情感 分 数 。j 代表 评论 中 负 
向 词 的 序列 数 ，N; 代表 该 词 对 应 的 负 向 情感 分 数 , 假 
设 评论 中 共有 个 正 向 情感 词 , m 个 负 向 情感 词 , 情感 
分 数 计算 如 公式 (3) 所 示 。 


SsentimentScore = 27 +》， N; (3) 
i=l i=l 


对 30 天 的 电影 评论 数据 的 情感 进行 量化 ,并 求 出 
情感 均值 (sentimentmeanScore)。 为 更 好 地 表达 电影 的 
情感 倾向 , 在 情感 均值 的 基础 上 , 计算 正 向 情感 均值 
(posmeanScore) 和 人 负 向 情感 均值 (negmeanScore)。 正 向 
情感 均值 为 30 天 电影 评分 数据 正 向 评价 的 算术 平均 
值 , 负 向 情感 均值 为 30 天 电影 评分 数据 负 向 评价 的 算 
术 平 均值 。 i、j、k 分 别 指 代 某 条 评论 数据 ; a 表示 正 向 
评论 数量 ;2 表示 负 向 评论 数量 ; n 指 总 数量 ,， 即 n=a+tb; 
pos() 指 第 i 条 评论 的 正 向 情感 值 ; neg0) 指 第 j 条 评论 
的 负 向 情感 值 ， sentimentScore( 有 D 指 第 条 评论 的 情感 
值 。 计 算 如 公式 (4)- 公 式 (6) 所 示 。 


S$- pos 


posmeanScore = 站 (4) 


>.neg()) 
negmeanScore = = (5) 
> sentimentScore(k) 
sentimentmeanScore = 人 1 (0) 
n 


提取 完 所 有 电影 的 情感 特征 后 , 组 建 出 所 有 的 预 
测 变 量 及 含义 ( 见 表 2), 并 归纳 整理 变量 数据 (部 分 数 
据 见 表 3)。 
表 2 预测 变量 及 含义 


预测 变量 名 称 实际 含义 
LeriticNum 参与 评分 的 人 数 以 10 为 底 对 数值 
LeommentNum 参与 评论 的 人 数 以 10 为 底 对 数值 
LwatchedNum 已 经 看 过 的 人 数 以 10 为 底 对 数值 
LdesireNum 想 要 观看 的 人 数 以 10 为 底 对 数值 
commentRatio 评论 人 数 占 评分 人 数 的 比例 
desireRatio 想 要 观看 人 次 占 看 过 和 想 看 人 次 的 比例 
sentimentmeanScore 电影 评论 情感 均值 
posmeanScore 电影 正 向 评论 情感 均值 
negmeanScore 电影 负 向 评论 情感 均值 
doubanScore 豆 辨 电影 评分 


表 3 ”预测 变量 值 表 ( 部 分 ) 


Lcritic Lecomment Lwatched Ldesire 
Num Num Num Num 


编号 ”电影 名 称 


comment 


sentiment posmean negmean douban 


1 小 时 代 4 4.9019 4.5759 4.9563 3.9654 


小 时 代 2 5.1045 4.7196 5.1774 3.8624 


2 
3 ”恶棍 天 使 4.8992 4.6329 4.9357 3.8567 
4 万 物 生 长 4.9530 4.5765 5.0190 3.9803 


5 ” 捉 妖 记 5.3677 4.9937 5.4185 4.2924 
6 ， 湄公河 行动 ”5.3412 5.0007 5.3659 4.5103 
7 ” 驴 得 水 5.1235 4.7927 5.1492 4.4252 
8 ”功夫 熊猫 3 5.1937 4.7917 5.2385 4.0827 


9 百 鸟 朝 凤 4.9233 4.5974 4.9611 4.3204 
10 ”七 月 与 安生 5.2082 4.8858 5.2441 4.2882 


Ratio Ue RAO meanScore Score Score Score 
0.4720 0.0927 0.6022 4.3345 —3.7442 4.6 
0.4121 0.0462 0.6174 4.2995 —3.7318 5 
0.5416 0.0769 0.3044 4.1802 —3.6735 4 
0.4202 0.0838 0.5267 4.1363 —3.8332 5.9 
0.4226 0.0696 1.2405 4.3430 -3.4054 6.8 
0.4565 0.1224 1.4745 4.6532 —3.5063 8.1 
0.4668 0.1588 0.4241 4.3093 —4.1345 8.3 
0.3962 0.0653 1.7018 4.6260 -3.0234 7.7 
0.4722 0.1861 2.1067 5.5629 -3.3765 8 
0.4760 0.0997 1.7458 4.8169 -3.3355 7.6 


4.3 ”预测 分 析 
回归 分 析 方 法 可 以 用 来 判别 客观 事物 数量 的 依 


种 方法 [ 针 。 常 见 的 回归 预测 有 多 元 线性 回归 (Multiple 
Regression)jP、 逐 步 回 归 (Stepwise RegressiomPo 、 岭 


存 关 系 , 可 以 用 来 处 理 多 个 变量 之 间 相 互 关 系 。 回 归 
分 析 是 研究 相关 关系 的 一 种 数学 方法 ， 是 寻找 不 完 
全 确定 的 变量 间 的 数学 关系 式 并 进行 统计 推断 的 一 


数据 分 析 与 知识 发 现 


回归 (Ridge RegressiomP7 、 套 索 回 归 (Lasso Regression) 中 
等 方法 。 
针对 上 述 的 数据 变量 ,分 别 使 用 多 元 线性 回归 、 
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逐步 回归 、 岭 回归 以 及 套 索 回 归 方法 对 模型 进行 变量 
ft en i i ge 
影 中 27 部 电影 数据 作为 模型 构建 数据 ，3 部 电影 作 
ss 
由 于 数据 涉及 到 多 个 变量 , 但 无 法 判断 各 变量 在 


模型 中 关联 程度 的 大 小 , 因此 使 用 多 元 线性 回归 , 观 
察 各 变量 P 值 的 大 小 , 结果 如 表 4 所 示 。 
表 4 多 元 线性 回归 各 变量 了 值 
变量 名 P 值 
LcriticNum 0.142 
LeommentNum 0.217 
LwatchedNum 0.304 
LdesireNum 0.151 
commentRatio 0.359 
desireRatio 0.308 
sentimentmeanScore 0.824 
posmeanScore 0.427 
negmeanScore 0.820 


当 所 有 变量 加 入 到 多 元 线性 回归 时 , 最 大 值 
wacthedNum 为 0.75， 远大 于 0.05; 最 小 值 LeriticNum 
也 达到 0.142, 所 有 变量 的 P 值 均 大 于 0.05。 构建 多 元 
线性 回归 模型 失败 ， 需 要 对 变量 进行 筛选 。 

使 用 逐步 回归 、 岭 回归 以 及 套 索 回归 分 别 对 模型 

进行 变量 选取 , 并 观察 各 个 变量 的 P 值 , 如 表 5 所 示 。 


表 5 三 种 回归 方法 各 变量 P 值 


回归 方法 变量 名 P 值 

LcriticNum 0.0320 
LcommentNum 0.0046 

逐步 回归 LwacthedNum 0.0728 
LdesireNum 0.0027 
posmeanScore 0.0020 
LdesireNum 0.0001 

岭 回归 commentRatio 0.0336 
posmeanScore 0.0020 
LdesireNum 0.0001 

套 索 回归 
sentimentmeanScore 0.0003 


通过 对 比 逐步 回归 、 岭 回归 、 套 索 回归 三 种 回归 
分 析 的 统计 量 来 分 析 上 述 三 种 模型 的 实际 预测 效果 ， 
各 了 值 均 表示 模型 显著 ， 进 一 步 探索 三 种 模型 R 方 和 
调整 R 方 , 如 图 4 所 示 。 
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R 方 调整 R 方 


拟 合 优 度 指标 
日 逐 步 回归 日 岭 回归 sa 套 索 回归 


岭 回 归 、 套 索 回 归 模 型 
统计 量 对 比 

岭 回归 在 两 个 指标 上 都 是 最 弱 的 ， 且 调整 R 方 的 
值 与 逐步 回归 、 套 索 回 归 的 差距 非常 大 。 对 于 调整 R 
方 , 逐步 回归 的 值 和 套 索 回归 的 值 相 对 较 高 ,但 是 逐 
步 回 归 的 R 方 值 最 高 ,达到 0.7656， 拟 合 效果 较 佳 。 
因此 ， 最 优选 择 为 逐步 回归 方法 构建 的 回归 方程 ,如 
公式 (7) 所 示 。 


Y=—12.9328+35.7904x LeceriticNum—11.5032x 
LeommentNum 一 24.6262 x LwacthedNum+ (7) 
2.9563x LdesireNum+ 1.2417 x posmeanScore 


4.4 预测 结果 评价 

预测 分 析 后 ， 还 需 对 得 到 的 预测 模型 进行 评价 。 
若 出 现 异 常 值 ， 需 分 析 原 因 ， 剔 除 异 常 值 后 重 构 模 型 ， 
并 用 检验 数据 对 模型 进行 检验 。 

(1) 预测 结果 分 析 

使 用 最 优 回归 方程 公式 (7) 对 各 电 景 
测 ， 结 果 如 图 5 所 示 。 
通过 拟 合 IMDb 分 数 与 评分 预测 值 ， 可 以 发 现 大 
部 分 电影 之 间 的 差距 很 小 , 误差 值 在 很 小 的 范围 内 ， 
说 明 预 测 模型 整体 上 是 有 效 的 。 其 中 有 几 部 电影 差距 
较为 明显 , 例如 《小 时 代 2》 和 《小 时 代 4》 预 测 分 数 
明显 大 于 其 IMDb 分 数 。 

(2) 异常 值 发 现 

从 模型 的 预测 结果 来 看 , 正常 电影 评分 预测 
值 和 IMDb 值 之 间 差 距 往往 不 超过 1 分 ， 本文 定 义 
预测 值 与 IMDb 值 差 距 超过 1 分 的 为 异常 值 ， 如 图 
6 所 示 。 

从 图 6 可 知 , 拟 合 正常 情况 下 的 电影 如 《明日 边 
缘 》《 火 星 救援 》， 预测 值 与 IMDb 分 数 的 差距 很 小 。 
而 《小 时 代 2 六 《小 时 代 4》 预测 值 与 IMDb 值 差距 
超过 1 分 , 甚至 2 分 。 可 以 判断 这 两 部 电影 的 评论 数 


图 4 逐步 回归 、 


彤 评分 进行 预 
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电影 名 称 
a IMDb 分 数 = 预测 值 
图 5 逐步 回归 构建 模型 预测 评分 与 实际 评分 的 直方 图 
表 6， 吻 除 异常 值 后 逐步 回归 变量 P 值 
7.5 
65 变量 名 P 值 
是 LeriticNum 0.0003 
~ 4.5 LeommentNum 0.0004 
3.5 LdesireNum 0.0002 
2.5 posmeanScore 0.0001 
小 时 代 4 小 时 代 2 ”明日 边缘 ”火星 救援 、 
BE 影 名 称 新 的 回归 分 析 结 果 的 统计 量 如 图 7 所 示 , 剔除 异常 
a IMDb 分 数 “a 预测 值 值 后 的 R 方 和 调整 RR 方 明显 提升 ,R 方 的 值 达到 0.8572,， 


图 6 异常 值 和 正常 值 拟 合 效果 对 比 


据 情感 倾向 具有 非 真实 性 。 通 过 查阅 新 闻 和 文献 证 实 
两 部 电影 确实 存在 刷 分 行为 , 说 明 本 模型 不 仅 具 有 评 
分 预测 的 作用 , 在 “网 络 水 军 ” 探 测 方面 也 发 挥 一 定 的 
作用 。 

(3) 剔除 异常 值 并 重 构 模 型 

为 避免 异常 值 对 模型 的 干扰 , 殊 除 《小 时 代 2》 和 

《小 时 代 4》 的 数据 ,利用 逐步 回归 的 方法 重新 构建 预 

测 方程 。 此 外 ,新 的 回归 模型 剔除 了 P 值 略 高 的 
LwatchedNum， 仪 使 用 LeriticNum、LcommentNum 、 
LdesireNum 以 及 posmeanScore， 这 些 变 量 的 P 值 都 具 
有 极 高 的 显著 性 ， 如 表 6 所 示 , 构建 回归 方程 如 公式 
(8) 所 示 。 


Y=—11.1349+7.4531x LeriticNum—7.4636 x LcommentNum 
+2.3371xLdesireNum+1.1499 x posmeanScore 


(8) 


弥 划 ”数据 分 析 与 知识 发 现 


调整 及 方 的 值 达到 0.8287, 模型 的 预测 效果 较 好 。 
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图 7 别 除 异常 值 回归 分 析 统 计量 的 直方 图 


对 比 新 模型 拟 合 的 预测 值 与 IMDb 分 数 如 图 8 所 
示 , 可 以 明显 看 出 , 各 个 电影 的 预测 值 和 IMDb 值 之 
间 差距 较 小 , 最 大 差距 的 为 《 叶 间 3》, 差 值 为 0.7 分 ; 
最 小 差距 的 为 《垫底 辣妹 》, 差 值 仅 为 0.05 分 。 因 此 ， 
公式 (8) 具 有 和 较 好 的 预测 效果 ,根据 方程 中 的 变量 要 
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a IMDb 分 数 = 预测 值 
图 8 剔除 异常 值 后 回归 构建 模型 预测 评分 与 IMDb 分 数 的 直方 图 


求 , 仅 需 要 其 电影 的 LeriticNum、LcommentNum 、 
LdesireNum 和 posmeanScore 就 可 以 对 电影 的 客观 评分 
进行 预测 。 

(4) 模型 检验 

为 了 检验 模型 实际 效果 , 使 用 预 留 的 三 部 电影 
据 进行 评分 预测 , 分 别 为 《 心 迷宫 》《 七 月 与 安生 》 以 
及 《我 的 少女 时 代 》, 相关 变量 如 表 7 所 示 。 

表 7 评分 预测 模型 检验 数据 


电影 名 称 ”LeriticNum LecommentNum LdesireNum posmeanNum 
心 迷宫 5.1247 4.7244 4.6835 4.9646 
七 月 与 安生 5.2082 4.8858 4.2882 4.8169 
我 的 少女 时 代 ”5.3919 5.0585 4.4110 4.8415 


利用 公式 (9) 对 三 部 电影 的 评分 进行 预测 ， 结 果 如 
图 9 所 示 。 


je 


分 值 
己 一 让 mm 上 了 ~oco 尼 呈 
| 


七 月 与 安生 


我 的 少女 时 代 心 迷宫 
电影 名 称 
上 日 IMDb 分 数 日 预测 值 


图 9 模型 实际 预测 效果 
可 以 看 出 三 部 电影 的 评分 预测 值 与 IMDb 实际 值 


都 很 接近 且 误 差 很 小 《七 月 与 安生 ;的 误差 为 0.0522， 


《我 的 少女 时 代 》 的 误差 为 0.0227, 《 心 迷宫 》 的 误差 
为 0.0644， 因此, 模型 的 实际 预测 效果 较 理 想 。 


S 结 语 


互联 网 环境 下 , 评分 网 站 不 容 忽 视 , 一 方面 为 潜 
在 消费 者 选 购 商 品 提供 决策 参考 , 另 一 方面 为 商家 提 
供 商 机 。 评 分 网 站 由 于 开放 性 导致 产品 评分 失真 ， 客 
观 的 评分 网 站 需求 愈 发 迫切 。 本 文 提出 基于 网 络 用 户 
评论 的 评分 预测 模型 来 预测 客观 评分 , 该 模型 主要 包 
括 网 络 用 户 评 论 获 取 、 预 测 变 量 获取 、 预 测 分 析 以 及 
预测 结果 评价 4 个 模块 。 为 验证 评分 预测 模型 的 有 效 
性 , 以“ 豆 办 电影 ”的 评论 内 容 作 为 语 料 来 源 ,以 IMDb 
作为 客观 评分 来 源 。 对 近年 来 30 部 不 同类 型 的 电影 影 
评 进行 实证 研究 ,结果 显示 , 在 评分 预测 模型 中 ,， 电 
影 上 映 30 天 时 的 评 和 最 适合 用 作 预 
测 数据 源 。 在 回归 分 析 中 , 逐步 回归 方式 筛选 出 变量 
构建 的 回归 方程 预测 效果 最 优 。 在 预测 分 数 和 IMDb 
分 数 拟 合 阶段 ， 发 现 异 党 值 ， 说 明 本 模型 不 仅 具 有 评 
分 预测 的 作用 , 在 “网 络 水 军 ” 探 测 方面 也 有 一 定 的 作 
用 。 剔 除 异 常 值 后 , 仅 需 要 其 电影 的 LeriticNum 、 
LecommentNum、LdesireNum 和 posmeanScore 变量 就 可 
以 对 电影 的 客观 评分 进行 预测 , 重 构 模型 之 后 利用 三 
部 电影 对 模型 评分 预测 效果 进行 检验 ,预测 评分 效果 
较 佳 。 
本 文 存在 以 下 不 足 之 处 : 数据 样本 量 较 少 , 可 考 
虑 通过 增加 数据 量 优化 模型 预测 效果 ; 此 外 , 在 情感 
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分 析 技 术 方 面 , 主要 是 基于 词典 技术 进行 情感 特征 提 
取 , 未 来 可 尝试 结合 机 器 学 习 方 法 或 者 其 他 前 沿 的 情 
感 分 析 技 术 进 一 步 精确 提取 情感 特征 ; 除了 以 电影 评 
分 网 站 作为 实例 外 , 可 选取 其 他 类 型 评分 网 站 的 数据 


进行 实证 研究 ， 以 验证 模型 的 普 适 性 。 


[1] 


[2] 


[4] 


[5] 


[6] 


[7] 


[8] 


[9] 


楼 旭 东 ,， 刘 萍 .“ 网 络 水 军 ” 的 传播 学 分 析 [ 加 .当代 传播 ， 
2011(4): 76-77. (Lou Xudong, Liu Ping. A Communicational 
Analysis of the “Water-forces in the Network” [J]. 
Contemporary Communication, 2011(4): 76-77.) 

Mudambi S M, Schuff D. What Makes a Helpful Online 
Review? A Study of Customer Reviews on Amazon.com[J]. 
MIS Quarterly, 2010, 34(1): 185-200. 

Chen Y, Chai Y, Liu Y, et al. Analysis of Review Helpfulness 
Based on Consumer Perspective [J]. Tsinghua Science & 
Technology, 2015, 20(3): 293-305. 

吴江 , 刘 弯 弯 . 基于 信息 采纳 理论 的 在 线 商 品评 论 有 用 性 
影响 因素 研究 [J]. 信息 资源 管理 学 报 , 2017, 7(1): 47-55. 
(Wu Jiang, Liu Wanwan. A Research of Factors Affecting the 


Perceived Helpfulness of Online Product Based on the 
Information Adoption Theory [J]. Journal of Information 
Resources Management, 2017, 7(1): 47-55.) 

Kuan K K, Hui K, Prasarnphanich P, et al. What Makes a 
Review Voted? An Empirical Investigation of Review Voting 
in Online Review Systems[J]. Journal of the Association for 
Information Systems, 2015, 16(1): 48-71. 

王 文 君 ， 张 静 中 . 电子 商务 网 站 在 线 评论 对 手机 销量 影响 
的 实证 研究 []. 河北 工业 科技 , 2016, 33(3): 188-193. (Wang 
Wenjun, Zhang Jingzhong. An Empirical Study of the Impact 


of Online Reviews on Mobile Phone Sales in E-commerce[J]. 
Hebei Journal of Industrial Science and Technology, 2016, 
33(3): 188-193. ) 

歼 诗 阳 , 刘 霞 ， 赵 平 . 线 上 消费 者 评论 如 何 影 响 产 品 销 
量 ? 一 一 基于 在 线 图 书评 论 的 实证 研究 [J]. 中 国 软 科学 ， 
2013(6): 171-183. (Gong Shiyang, Liu Xia, Zhao Ping. How 


do Online Consumer Reviews Influence Product Sales? —An 
Empirical Study Based on Online Book Reviews.[J] China 
Soft Science, 2013(6): 171-183.) 

Torres E N, Singh D, Robertson-Ring A. Consumer Reviews 
and the Creation of Booking Transaction Value: Lessons from 
the Hotel Industry [J]. International Journal of Hospitality 
Management, 2015, 50: 77-83. 

Chintagunta P K, Gopinath S, Venkataraman S, et al. The 


数据 分 析 与 知识 发 现 


[10] 


[11] 


[12] 


[13] 


[14] 


[15] 


[16] 


[17] 


[18] 


Effects of Online User Reviews on Movie Box Office 


Performance: Accounting for Sequential Rollout and 
Aggregation Across Local Markets[J]. Marketing Science, 
2010, 29(5): 944-957. 

Liu B, Hu M, Cheng J. Opinion Observer: Analyzing and 
Comparing Opinions on the Web[C]//Proceedings of the 
14th International Conference on World Wide Web, Chiba, 
Japan. New York, USA: ACM, 2005: 342-351. 

杜 思 奇 ， 李 红 莲 ， 吕 学 强 . 汉语 组 块 分 析 在 产品 特征 提取 
中 的 应 用 研究 [J]. 现代 图 书 情报 技术 , 2015(9): 26-30. (Du 


Siqi, Li Honglian, Lv Xueqiang. Research of Chinese Chunk 


Parsing in Application of the Product Feature Extraction[J]. 
New Technology of Library and JInformation Service, 
2015(9): 26-30.) 

单 晓 红 , 杨柳 .网络 产品 评论 挖掘 研究 []. 计算 机 系统 应 
用 , 2014, 23(2): 1-6. (Shan Xiaohong, Yang Liu. Research on 


Online Product Review Mining[J]. Computer Systems & 
Applications, 2014, 23(2): 1-6.) 

吴 维 芳 , 高 宝 俊 , 杨 海 霞 ， 等 . 评论 文本 对 酒店 满意 度 的 
影响 : 基于 情感 分 析 的 方法 四. 数据 分 析 与 知识 发 现 ， 
2017, 1(3): 62-71. (Wu Weifang, Gao Baojun, Yang Haixia, 


et al. The Impacts of Reviews on Hotel Satisfaction: A 
Sentiment Analysis Method[J]. Data Analysis and Knowledge 
Discovery, 2017, 1(3): 62-71.) 

马 春平 ， 陈 文亮 . 基于 评论 主题 分 析 的 评分 预测 方法 研究 
[加 . 中 文 信息 学 报 ，2017，31(2): 204-211. (Ma Chunping, 
Chen Wenliang. A Review Topic Analysis Method for Rating 


Prediction[J]. 
2017, 31(2): 204-211.) 
Kamath R, Ochi M, Matsuo Y. Understanding Rating 


Journal of Chinese Information Processing, 


Behaviour and Predicting Ratings by Identifying Representative 
Users[OL]. arXiv PrePrint, arXiv: 1604.05468v1. 

Titov I, McDonald R. Modeling Online Reviews with 
Multi-grain Topic Models[C]// Proceedings of the 17th 
International Conference on World Wide Web. ACM, 2008: 
111-120. 

马 松 岳 , 许多 . 基于 评论 情感 分 析 的 用 户 在 线 评价 研究 
一 一 以 豆 辩 网 电影 为 例 [J]. 图 书 情报 工作 ，2016，60(10): 
95-102. (Ma Songyue, Xu Xin. Study on User Online 


Evaluation Based on Sentiment Analysis of Comments: 
Taking Douban.com Movie as an Example[J]. Library and 
Information Service, 2016, 60(10): 95-102.) 

程 梁 琼 , 徐 健 . 面向 网 络 游 记 时 间 特 征 的 情感 分 析 模 型 [J]. 
数据 分 析 与 知识 发 现 , 2017, 1(2): 87-95. (Cheng Cuiqiong, 
Xu Jian. A Sentiment Analysis Model Based on Temporal 


201712.01381v1 


chinaXiv 


[19] 


[20] 


[21] 


[22] 


[23] 


[24] 


[25] 


[26] 


[27] 


Characteristics of Travel Blogs[J]. 
Knowledge Discovery, 2017, 1(2): 87-95.) 

匡 应 良 黄 媛 ,王选 飞 . 在 线 中 文 用 户 评论 研究 综述 : 基 
于 情感 计算 的 视角 [加 . 情报 科学 ，2017，35(6): 159-163. 
(Wu Yingliang, Huang Yuan, Wang Xuanfei. Research on 


Data Analysis and 


Online Users’ Reviews in Chinese: Basing on the Perspective 
of Affective Computing[J]. Information Science, 2017, 35(6): 
159-163.) 

冷 建 飞 ， 高 旭 ， 朱 嘉平 . 多 元 线性 回归 统计 预测 模型 的 应 
用 [加 . 统计 与 决策 , 2016(7): 82-85. (Leng Jianfei, Gao Xu， 


Zhu Jiaping. Application of Multivariate Linear Regression 


Statistical Prediction Model [J]. Statistics and Decision, 
2016(7): 82-85.) 

王 伟 . 美国 电影 网 站 IMDb 的 榜 单 文化 研究 [D]. 长 春 : 东 
北 师范 大 学 , 2016. (Wang Wei. An Empirical Analysis of 


Factors Influencing the Helpfulness of Online Consumer 
Reviews[D]. Changchun: Northeast Normal University, 2016.) 
GooSeeker 集 搜 客 网 络 聆 虫 ， 简单 高 效 的 网 页 采集 器 
[EB/OL]. [2017-03-20]. http://www.gooseeker.com/. (GooSeeker 
Web Crawler, Simple and Efficient Web Collector[EB/OL]. 
[2017-03-20]. http: /www.gooseeker.com/.) 

徐 琳 宏 , 林 鸿 飞 , 潘 宇 , 等 . 情感 词汇 本 体 的 构造 [J]. 情报 
学 报 , 2008, 27(2): 180-185. (Xu Linhong, Lin Hongfei, Pan 
Yu, et al. Constructing the Affective Lexicon Ontology[J]. 
Journal of the China Society for Scientific and Technical 
Information, 2008, 27(2): 180-185.) 

Ray S. 7 Types of Regression Techniques You Should Know! 
[EB/OL]. [2017-03-20]. https://www.analyticsvidhya.com/blog/ 
2015/08/comprehensive-guide-regression/. 

Abyaneh H Z. Evaluation of Multivariate Linear Regression 
and Artificial Neural Networks in Prediction of Water Quality 
Parameters[J/OL]. Iranian Journal of Environmental Health 
Science & Engineering, 2014. DOI: 10.1186/2052-336x-12-40. 
Yu T, Yu G, Li P Y, et al. Citation Impact Prediction for 
Scientific Papers Using Stepwise Regression Analysis[J]. 
Scientometrics, 2014, 101(2): 1233-1252. 

Wan S, Mak M, Kung S$, et al. R3P-Loc: A Compact 
Multi-label Predictor Using Ridge Regression and Random 


ChinaXiv 合 作 期 刊 


总 第 8 期 2017 年 第 8 期 


Projection for Protein Subcellular Localization[J]. Journal of 
Theoretical Biology, 2014, 360: 34-45. 

[28] Buccheri S, Capodanno D, Barbanti M, et al. A Risk Model 
for Prediction of 1-Year Mortality in Patients Undergoing 
MitraClip Implantation[J]. American Journal of Cardiology, 
2017, 119(9): 1443-1449. 


徐 健 : 提出 研究 思路 , 设计 人 研究 方案 ; 

刘 济 骂 : 采集 、 清 洗 和 分 析 数 据 ， 进 行 实验 ; 
张 红 丽 : 论文 起 草 ; 

张 红 丽 ， 杨 斯 楠 ， 徐 健 : 论文 最 终 版 本 修订 。 


所 有 作者 声明 不 存在 利益 冲突 关系 。 


支撑 数据 [1-3] 见 期 刊 网 络 版 http:Wwww.infotech.ac.cn; 支撑 数据 
4-7] 由 作者 自 存储 , E-mail: issxj@mail.sysu.edu.cn。 
1] 张 红 丽 ， 刘 济 骂 ,， 杨 斯 楠 ， 徐 健 . movies.docx. 30 部 电影 选取 


马 | 


2] 张 红 丽 ,， 刘 济 骂 ， 杨 斯 楠 ， 徐 健 . variable list.docx. 各 电影 相 
关 数 据 一 览 表 . 
丽 , 刘 济 吕 , 杨 斯 楠 , 徐 健 . 停 用 词 表 .docx. 去 除 停 用 
词 用 的 停 用 词 表 . 
4] 张 红 丽 , 刘 济 哇 , 杨 斯 楠 ， 徐 健 . 怜 虫 代码 .docx. 集 搜 客 豆 
斩 影 评 候 虫 规则 . 
[5] 张 红 丽 , 刘 济 骂 , 杨 斯 楠 ， 徐 健 . 分 词 代码 .docx. Python 下 
结巴 中 文 词 源 代码 . 
[6] 张 红 丽 ,， 刘 济 骂 , 杨 斯 楠 , 徐 健 . 情感 值 代码 .docx. Python 
下 情感 量化 源 代码 . 
[7] 张 红 丽 , 刘 济 骂 , 杨 斯 楠 ， 徐 健 . 回归 分 析 代码 .docx. R 语言 
回归 分 析 源 代码 . 


本 

es 
be 
二 
I 
已 
Ee 


pe=| 


收 稿 日 期 : 2017-05-31 
收 修改 稿 日 期 : 2017-07-19 


Data Analysis and Knowledge Discovery 


Predicting Online Users’ Ratings with Comments 


Zhang Hongli Liu Jiying Yang Sinan Xu Jian 
(School of Information Management, Sun Yat-Sen University, Guangzhou 510006, China) 


Abstract: [Objective] This study aims to build an effective prediction mechanism for online ratings, with the help of 
Web surfers’ comments. [Methods] We proposed a model with the following modules: Web users’comment acquisition, 
predictive variable acquisition, prediction analysis and the prediction results evaluation. We retrieved 30 movies of 
different types and user’s comments from the Web. 27 movies were used to build the model, which were then examined 
with the remaining movies. [Results] We employed the stepwise regression to select variables, which included the 
number of raters, the number of participants posting comments, the number of people who wanted to watch the moive 
and the sentiment value of the positive comments. The prediction results were quite close to the IMDb scores, and the 
maximum and the minimum differences were 0.0644 and 0.0227. [Limitations] The sample size, the accuracy of 
sentiment features, and compatibility of the model could be improved. [Conclusions] The proposed model effectively 
predicts movie Scores and detects the “water army” online. 

Keywords: Rating Prediction Sentiment Analysis Regression Analysis Movie Rating “Water Army” Detection 


人 工 智能 有 助 于 早期 皮肤 癌 检 测 


滑铁卢 大 学 和 Sunnybrook 研究 所 的 研究 人 员 开 发 了 一 项 新 技术 , 使 用 人 工 智能 (AD) 来 辅助 早期 的 黑色 素 瘤 皮 肤 瘤 检测 。 
该 技术 采用 机 器 学 习 软 件 分 析 皮 肤 损伤 的 图 像 , 并 为 医生 提供 黑色 素 瘤 的 生物 标志 物 指示 的 客观 数据 。 

该 人 工 智 能 系统 使 用 成 千 上 万 的 皮肤 图 像 及 其 相应 的 黑色 素 和 血红 蛋白 水 平 进行 训练 , 可 以 减少 不 必要 的 活检 ,大 大 节 
省 了 医疗 成 本 。 它 能 在 医生 采取 更 多 的 侵入 性 治疗 行动 之 前 ,为 医生 提供 病变 特征 的 客观 信息 ， 以 帮助 他 们 排除 黑色 素 瘤 。 

该 技术 最 早 将 在 2018 年 提供 给 医生 使 用 。 目 前 , 皮肤 病 学 家 主要 依靠 皮肤 病变 的 主观 视觉 检查 来 确定 患者 是 否 应 该 进 
行 活体 组 织 检查 以 诊断 疾病 。 这 一 新 系统 破译 了 病变 中 生物 标志 物质 的 水 平 , 为 目前 基于 外 观 的 评估 补充 了 一 致 的 、 定 量 的 信 
息 。 而 且 , 真 黑色 素 (一 种 赋予 皮肤 颜色 的 化 学 物质 ) 和 血红 和 蛋白 (红细胞 中 的 蛋白 质 ) 的 浓度 和 分 布 变化 是 黑色 素 瘤 的 强 指标 。 

(编译 自 : https://www.sciencedaily.com/releases/2017/08/170823090930.htm) 
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